图形神经网络非常适合捕获时空域中各个实体之间的潜在相互作用(例如视频)。但是,当不可用的显式结构时,它不明显的原子元素应该表示为节点。当前工作通常使用预先训练的对象探测器或固定的预定义区域来提取曲线节点。我们提出的模型改进了这一点,了解动态地附加到沉重的突出区域的节点,其与更高级别的任务相关,而不使用任何对象级监督。构建这些本地化的自适应节点,使我们的模型感应偏向为中心的表示,并且我们表明它发现与视频中的对象完全相关的区域。在广泛的消融研究和两个具有挑战性数据集的实验中,我们向前图神经网络模型显示出卓越的性能,用于视频分类。
translated by 谷歌翻译